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基于 随机 子 空 间 的 多 标签 类 属 特征 提取 算法 
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摘 X 目前 多 标签 学 习 已 广泛 应 用 到 很 多 场景 中 ， 在 此 类 学 习 问 题 中 ， 一 个 样本 往往 可 以 同时 拥有 多 个 类 别 标签 。 
由 于 类 别 标签 可 能 带 有 的 特有 属性 〈 即 类 属 属性 ) 将 更 有 助 于 标签 分 类 ， 所 以 已 经 出 现 了 一 些 基于 类 属 属性 的 多 标签 
学 习 算 法 。 针 对 类 属 属 性 构造 会 导致 属性 空间 存在 完 余 的 问题 , 本文 提出 了 一 种 多 标签 类 属 特征 提取 算法 LIFT_RSM。 
该 方法 基于 类 属 属性 空间 通过 综合 利用 随机 子 空 间 模型 及 成 对 约束 降 维 思 想 提 取 有 效 的 特征 信息 ， 以 达到 提升 分 类 性 
能 的 目的 。 在 多 个 数据 集 上 的 实验 结果 表明 : 与 若干 经 典 的 多 标签 算法 相 比 ， 提 出 的 LIFT RSM 算法 能 得 到 更 好 的 分 
类 效果 。 
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Multi-label label-specific feature extraction algorithm based on random subspace 


Zhang Jing, Li Yu, Li Peipei 
(School of Computer & Information, Hefei University of Technology, Hefei 230009, China) 


Abstract: Multi-label learning has been widely used in many application scenarios right now. In this kind of learning problem, 


each instance is simultaneously assigned with more than one class label. Since different class labels might have their own unique 
characteristics (1. e. , label-specific feature) which would be more useful for label classification, so some multi-label learning 


approaches based on label-specific features had already been proposed. Therefore, aiming at the problem that redundant feature 


space caused by label-specific feature construction, a multi-label label-specific feature extraction algorithm named LIFT RSM 
is proposed, which can improve the performance of classification by comprehensively using random subspace method and the 
thought of pair-wise constraint dimensionality reduction to extract effective feature information in label-specific feature space. 
The experimental results on several datasets show that the proposed algorithm can achieve better classification results compared 
with several classical multi-label algorithms. 
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E 合 ， 其 主要 任务 就 是 通过 从 训练 
T -((x,YJi-L-spxeX,Y, cL) 中 学 习 得 到 分 类 子 

随 着 信息 技术 的 发 展 , 多 标签 学 习 03] 已 逐渐 成 为 数据 挖掘 。 fix ->Y， 将 任意 未 知 样本 xe ge 映射 到 相应 的 标签 集 
领域 的 研究 热点 之 一 ， 得 到 了 广泛 的 关注 和 研究 。 不 同 于 传统 。 LcL。 由 于 标签 集合 工 中 标签 间 的 关系 并 不 假定 为 互 斥 的 ， 
单 标签 数据 ,在 多 标签 数据 中 每 个 样本 可 同时 隶属 于 多 个 标签 ， ”所 以 使 得 单 标签 学 习 框 架 不 再 适用 于 此 类 数据 。 
使 得 此 类 数据 往往 不 再 具有 唯一 语义 。 由 于 多 标签 数据 的 多 义 正 因 如 此 ， 经 过 近 些 年 来 许多 学 者 的 不 断 研究 ， 一 系列 多 
性 特点 ， 使 得 多 标签 学 习 在 实际 生活 中 可 以 广泛 运用 到 许多 应 。 标签 算法 被 先后 提出 。 总 结 目前 已 有 的 算法 ， 其 主要 构造 思路 
用 场景 中 ， 并 在 如 文本 分 类 、 音 乐 情 感 分 类 、 语 义 场景 分 类 、 大 致 可 分 为 以 下 三 种 ;问题 转换 、 算 法 适应 和 集成 方法 。 问 题 
生物 信息 学 及 其 他 领域 内 取得 了 较 好 效果 。 转换 方法 通过 改造 数据 将 多 标签 问题 转换 为 若干 个 单 标签 
多 标签 学 习 问题 可 形式 化 地 描述 如 下 : 给 定 X = R* 代 表 4d ”问题 ,再 利用 成 熟 的 单 标签 方法 处 理 转换 后 的 问题 。 此 类 方法 
维 样本 空间 , 工 ={1,4,…,l |1e{0,1}} 表示 包含 g 个 标签 的 标签 。 ”虽然 简单 易 行 且 不 受 特定 算法 的 限制 ， 但 由 于 忽略 了 标签 间 的 
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关联 信息 , 会 在 一 定 程度 上 影响 学 习 效果 。 算 法 适应 方法 [9 则 
直接 扩展 改进 传统 的 单 标签 学 习 算 法 ， 增 强 其 适用 性 和 泛 化 能 
力 ， 使 之 能 适应 多 标签 数据 的 处 理 。 集 成 方法 4 通常 将 问题 
转换 方法 和 算法 适应 方法 结合 起 来 处 理 多 标签 学 习 问题 ， 以 便 
取得 更 优 的 学 习 效果 。 


在 处 理 多 标签 数据 时 ， 上 述 方法 采用 了 一 个 相同 的 策略 : 
即使 用 同一 特征 集合 预测 所 有 的 类 别 标签 。 尽 管 此 策略 在 多 标 
签 研究 领域 内 取得 了 不 错 的 效果 ， 但 其 并 非 最 优选 择 。 由 于 每 
个 标签 可 能 具有 独 有 的 特征 属性 ( 即 类 属 属性 )， 同 时 它们 也 是 
与 标签 最 相关 的 属性 ， 对 相应 标签 具有 更 强 的 判别 能 力 。 基 于 
此 观点 ，Zhang 等 提出 了 基于 类 属 属性 的 LIFT(multi-label 
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此 构建 特征 子 空间 ， 然 后 利用 各 特征 子 空间 构造 相应 的 子 分 类 
器 ， 最 后 将 通过 不 同 子 分 类 器 学 习 得 到 的 分 类 结果 按照 一 定 的 
组 合 规则 进行 融合 集成 ， 得 到 最 终 的 学 习 决 策 。 在 特征 随机 选 


取 过 程 中 ， 不 但 能 够 更 充分 地 利 


原始 特 行 


信息、 减少 数据 元 


余 , 同 时 还 能 有 效 避 免 小 样本 问题 。 但 由 于 特征 选取 的 随机 性 ， 


无 法 保证 所 选 特征 都 包含 有 效 判 别 信息 ， 导 致 基 分 类 器 的 准确 


性 难以 保证 。 
2 基于 随机 子 空 


2.1 类 属 属性 空间 构建 


间 的 多 标签 类 属 特征 提取 算法 


LIFT 算法 构建 类 属 属性 空间 时 需要 考 


learning with Label specific FeaTures) 算 法 05。 与 已 有 策略 不 同 ， 
LIFT 算法 借助 类 属 属性 确定 未 知 样本 的 标签 集合 , 然而 其 在 类 
届 属 性 的 构造 过 程 中 ， 未 充分 考虑 样本 间 的 相关 性 ， 会 导致 类 
遇 属 性 维度 增加 ， 使 得 类 属 属性 空间 中 存在 元 余 
针对 上 述 问题 ， 本 文 综合 利用 随机 子 空间 及 z 
的 思想 ， 提 出 了 一 种 基于 随机 子 空间 的 多 标签 类 属 特 征 提取 算 
法 , 记 为 LIFT-RSM。 对 于 各 个 类 属 属性 空间 , 该 方法 首先 利用 
随机 子 空间 思想 将 原始 特征 空间 划分 为 多 个 部 分 ， 其 次 ， 在 各 


Š 


个 部 分 中 利用 近邻 关系 和 成 对 约束 获取 相应 权 值 矩阵 ， 然 后 融 
合 各 权 值 矩阵 并 依 此 设计 目标 函数 ;， 最终 通 过 和 矩阵 的 广义 特征 
值 分 解 学 习 得 到 变换 矩阵 ， 并 以 此 构建 对 应 的 低 维 特征 空间 。 


实验 结果 表明 ， 该 算法 取得 了 较 好 的 分 类 效果 ， 验 证 了 算法 的 
有 效 性 。 


1 ”相关 工作 


1.1 成 对 约束 
在 许多 应 用 领域 中 ， 除 样本 的 类 别 标记 外 ， 一 些 其 他 形式 
的 背景 知识 也 可 以 用 作 监 督 信息 ， 其 中 就 包括 成 对 约束 (pair- 
wise constraints) 信 息 。 成 对 约束 是 指 某 两 个 样本 间 的 一 种 关系 。 
相 比 于 类 别 标记 ， 成 对 约束 适用 范围 更 为 广泛 更 为 一 般 化 ， 其 
不 关注 样本 的 具体 类 别 ， 仅 关心 两 个 样本 是 否 属于 同一 类 别 ， 
因而 更 易 获 取 。 而 且 根 据 类 别 标记 信息 可 以 相对 容易 地 获取 等 
价 的 成 对 约束 信息 ， 反 之 则 不 然 ， 因 此 成 对 约束 比 类 别 标记 更 

成 对 约束 通常 可 分 为 正 约 束 (must-link,，ML) 和 负 约 束 
(cannot-link, CL) 两 种 (133， 其 中 正 约束 是 指 两 个 样本 隶属 于 同一 
类 别 ; 相反 地 ， 负 约束 则 要 求 两 个 样本 属于 不 同类 别 。 具 体 而 
言 ,对 于 给 定 的 样本 集合 叉 =[%%,x,…,x,]， 可 将 其 中 所 有 正 约 
束 的 集合 构成 正 约束 集 ， 形 式 化 地 表示 为 
M - (GG. x pos x Jk T- 181—285) ; 相应 的 , 负 约 束 集 为 所 有 负 约 束 
HRE, WNC = (Ge, x x, x 8 FAE} 。 
1.2 随机 子 空间 

随机 子 空间 是 由 Ho04355 提 出 的 一 种 有 效 的 基于 特征 划分 
的 集成 学 习 方法 , 最初 用 于 克服 决策 树 分 类 器 中 的 过 学 习 问 题 。 
其 基本 思想 是 从 原始 特征 空间 中 随机 选取 不 同 的 特征 子 集 并 依 
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空间 的 内 在 性 质 。 有 具体 而 言 ， 


察 各 个 标签 下 属性 


对 于 任意 标签 es 工 ， 可 将 训练 集 


划分 为 正 类 样本 集合 已 和 负 类 样本 集合 N, 两 部 分 ， 分 别 表示 
为 

-[xl(x. X) eT.1 ej a) 

N, ={x](x Y) eT.1, eY) Q) 


由 此 可 知 ，Pp 是 由 具有 1 标签 
N, 则 由 未 被 7 标记 的 样本 构成 。 

在 文献 [12] 中 ， 利 用 k-means 算法 分 别 
行 聚 类 分 析 。 在 


k, 可 将 集合 P 划分 为 m; NIR, 其 聚 类 中 心 记 


的 样本 组 成 的 集合 ; 相反 地 ， 


IER 


两 个 集合 进 


DIR, SEINE 


8 Cpl pls pt) o BIBLE, 集合 N, 将 被 划分 成 mr 
HRE 4528 (nf nf s nh ) 。 文 献 [12] 给 予 p M N, HORIS 


息 相同 的 权重 ， 
m, =m, =m, ° 


式 确定 : 


因而 将 聚 类 中 心 的 数 
体 来 说 , 集合 p IN, 的 村 


m, =| yomin(|B,IN))] 


EP: | 表示 集合 的 基数 ，y e[0,1] 是 控制 京 类 数 


聚 类 的 性 质 可 知 


， 上 述 两 组 聚 类 中 心 


设 为 相等 ， 即 
案 类 数 以 下 公 


将 


G3) 


的 参数 。 


式 进行 定义 : 


集合 的 内 在 结构 。 因 此 ， 在 此 基础 上 ， 类 属 属 ! 


9, (x) =| a(x pi) d(x ph palron) nalni, O 
其 中 : d(e) 返回 两 样本 间 的 距离 , 在 文献 [12] 中 采用 欧 氏 距离 。 
2.2 ”基于 随机 子 空间 的 特征 提取 
22.1 随机 子 空间 划分 及 融合 

利用 上 文 构建 的 类 属 属性 空间 , 在 原始 DD 维 空间 中 随机 选 
取 了 个 特征 (P<D) 构 建 7 个 不 同 的 P 维 子 空间 集合 ， 记 为 
F-(F.FE,..F). Kb. £E— FH r 均 为 由 维 样本 
f! e R' 构成 的 空间 , BU m (fI, fles 户 } 。 为 了 清晰 地 描述 子 
空间 中 样本 的 近邻 关系 ， 在 此 ， 利 用 距离 均值 来 自 适 应 的 确定 
样本 的 近邻 数 。 具 体 而 言 ， 就 是 在 任意 子 空间 F 中 ,样本 间 的 
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近邻 关系 依据 样本 p 与 所 有 样本 的 距离 均值 M 进行 界定 ， 即 


M; =( 了 4d))/N。 当 样本 所 与 f/ 之 间 的 距离 qj 小 于 MI 时 ， 


将 疡 视 为 fr 的 近邻 , 否则 二 者 间 不 存在 近邻 关系 , 如 此 不 同样 
本 的 近邻 数 太一 般 是 不 相等 的 。 


针对 任意 子 空间 天， 构建 相应 的 自 适应 近邻 图 GY 、 非 邻 
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其 中 : gn 为 对 称 和 矩阵 ， pm 为 对 角 和 矩阵 ， 其 对 角 线 上 的 元 素 是 


ij 


矩阵 s» 中 相应 的 列 ( 或 行 ) 和 , 即 D" =D Sp e po pns" 


拉 普 拉 斯 矩阵 ， 是 一 个 对 称 的 半 正 定 矩 阵 。 
对 于 负 约束 关系 CL， 为 了 能 够 充分 反映 样本 间 的 差异 性 ， 
在 这 里 ， 本 文 利用 混合 类 间 邻 近 图 Gs 对 原始 负 约 束 集合 C XE 


近 图 Gf 及 类 间 邻 近 图 G? 。 有 具体 来 说 ， 就 是 以 图 中 的 节点 表示 
具体 样本 ， 利 用 图 中 的 边 来 反映 样本 间 的 邻近 关系 。 根 据 上 述 
图 关系 分 别 定义 各 个 样本 与 相应 近邻 样本 的 权重 和 矩阵 
S =[Ss*]、 与 相应 非 近 邻 样 本 的 权重 矩阵 S^ =[S;”]、 与 相应 
类 间 邻 近 样本 的 权重 矩阵 S^ [57^], EREE REE 
义 如 下 : 


gov 1, if d; «M; or d, «M; i 
d 0, else 
gF = 1, if d; 2 M; and d; 2 M; (& 
d 0, else 
Om L if UD) € C and d; < F/ i 
0, else 


其 中 : di 为 样本 间 的 欧 氏 距离 ，M; 为 样本 f 与 所 有 样本 距离 
的 均值 ， 尼 表示 样本 广 与 其 同类 相距 最 远 样本 间 的 距离 值 。 

为 了 能 够 更 有 效 地 利用 子 空间 信息 反映 数据 的 真实 分 布 情 
况 ， 降 低 特征 随机 选取 造成 的 不 确定 性 。 在 此 ， 分 别 融合 已 构 
建 的 了 个 自 适 应 近邻 图 、7 个 非 邻 近 图 及 了 个 类 间 邻 近 图 ， 得 
到 相应 的 混合 近邻 图 cx、 混合 非 邻近 图 Gr 及 混合 类 间 邻 近 图 
G2#， 并 依据 上 述 混 合 图 关系 构建 对 应 的 权 值 矩阵 ga eor 和 
S”。 以 上 混合 图 的 权 值 矩阵 均 可 借助 各 个 子 空间 中 相应 权重 
矩阵 进行 线性 重建 得 到 。 有 具体 而 言 ， 可 将 它们 之 间 的 关系 分 别 
定义 如 下 : 


"Mim 2 Am. 

S; = S —52448 S; -12.48j (8) 
Ru s. $5. SSUDAGORBUBEBR S. g 及 sm 中 
的 权 值 。 从 上 式 可 看 出 ， 混 合 图 中 的 权 值 可 由 了 个 子 空间 中 对 
应 权重 取 均 值 获得 。 
2.22 设计 目标 函数 

对 于 正 约束 关系 ML， 为 了 能 够 有 效 保持 类 内 整体 的 紧 致 
性 ， 本 文 将 选取 样本 对 应 的 全 部 同类 样本 用 于 构建 权 值 矩阵 
S”"=[S”]。 因 此 ， 可 以 根据 正 约束 集合 M 构造 类 内 散布 矩阵 
Q, 用 于 描述 类 内 紧凑 程度 ， 定 义 如 下 : 
0 ss) 


Xžj )em or (x; Xj Jeu? 


-2w' X(D" - $")X*w e 
=2w XI" X^w 
gn 1, if (x.x,)eM Or (x,.x)e M (10) 
alit 0, else 


行 调整 ， 构 造 新 的 负 约束 集 以 相应 的 权 值 矩 阵 gw 为 基 
础 ， 构 建 可 以 刻画 类 间 离 散 程度 的 类 间 混 合 散布 矩阵 CO, ， 定 
义 如 下 : 


O， Z wx |(o7 Eu D? ES s" 4 py y) Xw 
- w'x (p S”) Xw 
=w XĽ*X"w 
sw 为 非 对 称 矩 阵 ， pe 和 pree SAX AHERE, BI 


其 FH. 
S : 
col | rsb row _ rsb —rsb —rsb 
D? = SDE =) SOS, qn o 
li Si Dj Sy pep -S 


到 目前 为 止 仅 考虑 了 与 成 对 约束 有 关 的 信息 ， 尚 未 涉及 样 
本 集 所 包含 的 潜在 信息 。 在 此 ， 为 了 能 够 充分 利用 样本 间 的 令 
近 信息 ， 可 以 基于 流 形 假设 ng 将 样本 间 的 近邻 关系 作为 局 部 结 
构 信息 导入 降 维 过 程 中 。 一 方面 ， 希 望 在 原始 空间 中 相互 靠近 
的 样本 其 投影 在 低 维 空间 中 也 是 互相 靠近 的 。 因 此 ， 根 据 混合 
近邻 图 G* 的 权 值 矩阵 gm， 可 以 构建 混合 邻近 散布 矩阵 O， 用 
于 描述 近邻 点 之 间 的 紧密 程度 ， 具 体 定义 如 下 ; 


2 
E DERE i rsn 
CO， => (w X —-w x) 8; 


-2w'X(D'* -S")xfw (12) 
= 2w XI" X^w 
其 中 : D» 为 对 和 矩阵 ， Dj = 2 sS" ; "=p" -— S » 


另 一 方面 ， 对 于 非 近邻 样本 ， 期 望 其 在 低 维 空间 中 的 投影 
点 能 够 尽 可 能 的 散 开 。 基 于 此 , 利用 混合 非 邻近 图 Gr 的 权 值 矩 
阵 enr 定义 了 下 式 用 于 度量 非 近邻 样本 间 的 散 开 程度 : 


Qs = Mx i wx, ) S; 
-2w X (D'' -8")xfw (3) 
=2w XI Xw 
其 中 : Oy 表示 混合 非 邻近 散布 和 矩阵， prr 代表 对 角 和 矩阵 ， 


LI 2p" gs 


EF ERER, 在 设计 目标 转换 向 量 wy* 时 ,应 该 以 成 对 约 
束 信息 为 指导 ， 同 时 充分 利用 样本 间 的 近邻 关系 。 因 此 ， 最 终 
标 转换 向 量 可 以 通过 定义 如 下 函数 得 到 : 


w xX(L™ -aL* )x^w 
w'X(r" + BU" )x*w 


Q,» + QQ,y ES 


w = argmax argmax 
w 


Qn T OO w 


(14) 
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其 中 : a 和 为 常 系数 , 分 别 用 于 调节 9, o. 的 贡献 度 。 如 
R X(+ BL™)X7 为 非 奇异 的 , 那么 可 以 使 用 拉 格 朗 日 方法 变 
换 上 式 ， 将 上 式 的 求解 问题 转换 为 如 下 等 式 求解 最 大 广义 特征 


值 对 应 特征 向 量 的 问题 ; 


X(£* «ar*)x'w-Ax(r" + Br")x?w (15) 


ADR RE HE thr (0 < rhr <1)» 


Bi Y" A Rrx Y. A 确 


定 最 终 维度 d， 并 选取 前 d 个 最 大 非 零 特 征 值 的 对 应 特征 向 量 


构成 变换 矩阵 W。 
23 ”算法 描述 
本 节 将 随机 子 空间 思想 引入 类 属 空间 ， 充 分 利用 成 对 约束 


信息 及 样本 的 近邻 关系 ， 提 出 了 一 种 基于 随机 子 空间 的 多 标签 


AVAN 


Chi 
PEE PAR FhMu Lj 


w 
E: 
A 


心 化 CEIR 2-5); 然后 利用 随机 子 空间 思想 划分 原始 类 属 空间 ， 
融合 各 子 空 间 的 近邻 关系 后 ， 借 助 成 对 约束 信息 对 原始 类 属 空 
间 进 行 降 维 (步骤 6~12); 接着 在 降 维 后 的 类 属 属性 空间 中 训练 
二 分 类 模型 (步骤 13~14)， 最 后 对 未 知 样本 进行 预测 (步骤 15)。 
3 ”实验 分 析 

3.1 数据 集 

本 文采 
种 不 同 的 公开 多 标签 数据 集 ， 
签 类 属 特征 提取 算法 进行 实验 验证 
息 如 表 1 所 示 。 由 于 所 选 的 数据 集 涵盖 J 


fes 


> 


J] Scene, Emotions, Slashdot, Flags 和 Image 45 5 
对 提出 的 基于 随机 子 空间 的 多 标 
上 述 数 据 集 的 具体 统计 信 
音乐 、 图 像 、 文 本 等 


类 属 特 征 提取 算法 。 以 下 完整 地 展示 了 从 类 属 属性 构建 、 子 空 
间 划 分 融合 、 特 征 提 取 、 分 类 模型 训练 至 未 知 样本 预测 的 全 部 
流程 ， 其 详细 操作 过 程 可 以 总 结 如 下 : 

输入 : 训练 集 马 聚 类 个 数控 制 参数 y, 随 机子 空间 个 数 工 特 
征 子 空 间 维度 已 ,贡献 度 控制 参数 a 和 BS BRL EAR thr, 未 标记 样 
Ax. 

输出 : 预测 标签 集合 Y. 

CD 对 于 每 一 种 类 标签 1 ， 重 复 步骤 2~15; 

(2) 根据 式 (D)~(2)， 利 用 训练 集 式 构建 样本 集 已 和 N, ; 

(3 在 P, 和 N, E, 用 k-means 算法 进行 聚 类 分 析 ， 聚 类 个 
数 m 根据 式 (3) 获 得 ; 

人 @ 根据 式 (4) 构 建 原始 类 属 属性 空 


={9.(7)}: 


© 对 工 进行 中 心 化 ， 得 到 类 属 属性 空间 C, — Tr, U TS, ; 
© E Tr, 中 随机 选取 忆 维 特征 构成 子 空间 下 ; 


i = 其 中 
IR] L 2:mU ts,» X 


tr, ={p (x), Vx, e X)» ts, 


CD 在 上 构造 近邻 图 Gx 、 非 邻近 图 G^ RIZSTRI ADAE E 
G3， 并 根据 式 (5)~(7) 计 算 对 应 权重 矩阵 ; 

返回 步骤 6， 如 此 循环 7 次 ; 

(9) 利用 各 个 子 空间 中 的 图 关系 构建 混合 图 ， 根 据 式 (8) 计 
算 各 混合 图 权 值 矩 阵 ; 


(o) 根据 式 (9)~(13), 分 别 构建 散布 矩阵 O, 、0Q,,、 
Qy: 

(D 确定 权 值 a 和 8， 构造 目标 转换 函数 如 式 (14) 所 示 ; 

(2) 根据 thr 确定 维度 d， 求解 式 (15) 得 到 变换 矩阵 W , 388 
过 My, -W,'rr, 得 到 降 维 后 的 类 属 属 性 空间 ， 即 映射 
pi (a 3 Va; € Tr, ; 

(3) 以 映射 p, (a) 7d RULES EAZ 2) 28 IZ T; ; 

EFT 使 用 二 分 类 学 习 算法 得 到 相应 的 分 类 模型 
fi: My >R; 


Q,,, 和 


© 预测 的 标签 集合 Y 


LIFT-RSM 算法 首先 为 每 个 类 标签 构建 类 属 属性 空 


间 并 中 


={4|f.(p.())>01<k< greTs}. 


不 同 应 用 领域 ， 而 且 标签 性 质 各 不 相同 ， 因 而 具有 较 强 的 概括 性 。 
del 数据 集 信息 
数据 集 IS| — dim(S) L(S) LCard(S) LDen(S) URL 
Image 2000 294 5 1.236 0.247 — URL2 
Scene 2407 294 6 1.074 0.179 URLI 
Emotions 593 72 6 1.869 0311 URLI 
Flags 194 19 7 3.392 0.488 URLI 
Slashdot 3782 1079 22 1.180 0.054 | URL3 


ik: URLI:http://mulan.sourceforge.net/datasets-mlc.html 
URL2:http://cse.seu.edu.cn/PersonalPage/zhangml/index.htm 
URL3:http://computer.njnu.edu.cn/Lab/LABIC/LABIC softw 


are.html 

在 表 1 中 : |s| 表示 样本 个 数 ; dim(S) 表示 属性 个 数 ; Z(S) 
表示 标签 个 数 ; LCard (5) 表示 标签 基数 , 为 样本 具有 的 平均 相 
关 标 签 个 数 ，LDen(S) 表示 标签 密度 ， 为 由 标签 个 数 归 一 化 的 
标签 基数 。 
3.2 ”实验 设置 
32.1 评估 指标 

在 多 标签 学 习 中 , 由 于 每 个 样本 可 以 同时 隶属 于 多 个 标签 ， 
所 以 通常 检验 多 标签 算法 的 有 效 性 与 检验 单 标签 算法 相 比 更 加 
复杂 。 在 传统 单 标 签 算 法 中 广泛 应 用 的 评价 指标 如 准确 率 、 查 
全 率 、 Mon d D 为 此 需要 引入 专门 的 
多 标签 评价 指标 来 验证 算法 的 有 效 性 。 目 前 ， 多 标签 评价 指标 
主要 从 样本 和 标签 两 个 角度 度量 算法 的 性 能 ， 可 大 致 分 为 两 类 
(U. 即 基 于 样本 的 指标 0 和 基于 标签 的 指标 0 。 在 本 文 实验 中 ， 
选取 以 下 5 项 评价 指标 来 综合 评估 提出 算法 的 性 能 ， 其 中 包括 
1 个 基于 样本 的 指标 : 汉 明 损失 (HammingLoss, EZ) 及 4 个 基于 


标签 排序 的 指标 : 1- 错 误 率 (One-ErroprOE)、 排 序 损失 
(RankingLoss, RZ、 履 盖 率 (Coverage,C 门 、 平 均 精 度 (Average 


Precision, AP). 

上 述 五 种 指标 分 别 从 不 同 角 度 评 价 算法 性 能 的 优 劣 ， 并 直 
接 反 映 在 指标 数值 的 大 小 上 。 其 中 ， 平 均 精 度 在 值 越 大 的 时 人 
算法 性 能 越 好 ， 当 其 值 为 1 时 ， 性 能 达到 最 优 ， 余 下 4 个 评价 
指标 ， 取 值 越 小 表示 算法 性 能 越 好 ， 所 以 当 值 为 0 时 ， 性 能 最 


E 


录用 稿 
好 ， 反 之 为 1 时 最 差 。 有 关上 述评 价 指 标的 详细 介绍 具体 可 参 
照 文 献 [1]， 在 此 不 再 次 述 。 
3.22 对 比 算法 

本 文选 取 5 种 经 典 的 多 标签 学 习 方 法 用 作对 比 算法 ， 分 别 
与 本 文 提出 的 LIFTRSM 算法 进行 对 比 及 分 析 。 这 5 种 算法 包 
括 : 基于 近邻 的 ML-ANN $EIEUM LIFT 算法 0 、 多 标签 维度 


调 


约 减 算法 MDDMII9]、MILNBP0 和 MLSIC0。 实 验 中 ， 对 于 LIFT 
和 LIFTRSM 算法 ， 将 参数 y 以 0.1 为 步 长 在 [0,1] 
节 ， 并 最 终 设 定 y =0.2 ; 对 算法 MONB、MLSI， 设 置 保持 


E 98% 的 信息 量 ， 对 于 MDDM 及 ML-KNN 算法 ， 根 据 相 应 


区 间 内 进行 


AIN 


以 


文献 的 建议 选取 默认 的 参数 配置 。 


Mm 


如 


无 特别 说 明 ， 在 LIFT RSM 算法 中 控制 贡献 


和 8 均 设置 为 0.05， 随 机 子 空间 个 数 了 设 
作 度 设置 为 20， 若 


B [03*d|. fEME 
除 MLNB 算法 外 ， 
基 分 类 器 。 本 文 所 
主机 上 完成 ， 


度 的 参数 a 
为 10, 特征 子 空间 


原始 空间 的 维度 4 小 于 20 时 ， 则 将 卫 设 


过 程 中 保留 


原 类 属 属性 95% 的 信息 量 。 


使 


2014a 作为 开发 平台 。 
结果 分 析 


3.3 


过 程 重复 50 次 


对 于 Image. Scene, Flags 数据 集 ， 本 文 从 数据 
取 80% 的 样本 作为 训练 集 ， 余 下 20% 的 样本 组 成 测 il 
记录 50 次 实验 的 均值 。 余 
训练 集 和 测试 集 ， 重 复 实验 50 次 并 记录 50 次 实验 的 均 
| 记录 了 各 个 算法 在 5 种 数据 集 上 的 实验 结果 ， 


K 2-6 分 另 
实验 结果 采 上 
Ct) 


实验 在 
MERAJ 64 位 Windows 7, 


线性 核 LIBSVM 作为 其 余 所 有 算法 的 


内 存 为 4GB 及 2.50GHz 处 理 器 的 
选取 MATLAB 


随机 抽 
E 


E M 
i 


Tit 


数据 集 使 用 原始 


IH. o 


均值 形式 表示 。 
表示 该 项 评价 指标 值 越 小 〈 越 大 ) 算法 性 能 越 优 。 此 
外 ， 各 项 评价 指标 的 最 优 值 以 下 划 线 方式 标 出 。 


其 中 ， 对 于 各 项 评价 指标 ， 符 号 


表 2 数据 集 Scene 分 类 性 能 比较 
算法 HL} OE} CV} RL} AP 
MLSI 0.1085 0.2684 0.5645 0.0955 0.8376 
ML-ANN 0.8798 0.2279 0.4780 0.0782 0.8641 
MDDM 0.1065 0.2605 0.5194 0.0877 0.8454 
MLNB 0.8846 0.2797 0.5729 0.0962 0.8331 
LIFT 0.0770 0.1903 0.3839 0.0615 0.8878 
LIFT RSM 0.0762 0.1818 0.3882 0.0606 0.8918 
表 3 数据 集 Flags 分 类 性 能 比较 
算法 HL} OE} CV} RLU} AP 
MLSI 0.3422 0.2606 3.9308 0.2410 0.7909 
ML-ANN 0.6872 0.2376 3.9846 0.2426 0.7934 
MDDM 0.3379 0.2531 3.8749 02318 0.7960 
MLNB 0.6215 0.2813 4.3803 0.3300 0.7400 
LIFT 0.3382 0.2390 3.8144 0.2330 0.8001 
LIFT RSM 0.3168 0.2274 3.9046 0.2300 0.8012 
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的 多 标签 类 局 特征 提取 算法 


v \ 
3aX I 


A4 数据 集 Emotions 分 类 性 能 比较 


间 的 多 标签 类 局 


FH 
IN o 


LIFT_RSM 算法 在 余下 的 3 个 评价 指标 上 均 优 于 其 他 对 比 算法 
对 于 Scene 和 Flags Zjrj 
下 4 项 指标 均 优 于 对 比 算法 。 对 于 Slashdot 数据 集 ， 
E HL, OE, CV, RL 和 AP 等 5 项 指标 上 的 结果 分 别 为 


fik 
0.0397. 0.4096, 2.4202. 0.0948 及 0.6871, 3H 
法 均 有 不 同 程度 的 提升 ， 与 其 他 算法 相 比 效果 提升 更 为 显著 。 


算法 HL| OE| CV} RL] AP1 
MLSI 0.2946 0.4307 2.6733 0.3236 0.6723 
ML-kNN . 0.8762 0.4059 2.4901 0.2829 0.6938 
MDDM 0.2608 0.3762 2.2475 0.2367 0.7307 
MLNB 0.8085 0.4257 2.3762 0.2706 0.7051 
LIFT 0.2700 0.3483 24110 0.2506 0.7302 
LIFT RSM 0.2607 0.3478 2.3144 02387 0.7352 

de 5 数据 集 Image 分 类 性 能 比较 

算法 HL| OE| CV} RL| AP1 
MLSI 0.1904 0.3453 1.0186 0.1867 0.7770 
ML-ANN . 0.8820 0.3224 0.9781 0.1774 0.7893 
MDDM 0.2003 0.3732 1.0633 0.1964 0.7591 
MLNB 0.8572 0.4143 1.2605 0.2462 0.7223 
LIFT 0.1535 0.2654 0.8305 0.1398 0.8286 
LIFT RSM 0.1512 0.2566 0.8347 0.1406 0.8313 

d 6 数据 集 Slashdot 分 类 性 能 比较 

算法 HL| OE| CV} RL} APT 
MLSI 0.0549 0.4865 3.2267 0.1271 0.6253 
ML-ANN 0.0528 0.6642 4.2624 0.1785 04775 
MDDM 0.0470 0.6484 4.2201 0.1793 0.4952 
MLNB 0.9722 0.5577 5.5558 0.1470 0.2379 
LIFT 0.0400 0.4163 2.4545 0.0968 0.6813 
LIFT RSM 0.0397 0.4096 2.4202 0.0948 0.6871 


观察 表 2-6 中 的 结果 可 以 看 出 ， 本 文 提 出 的 基于 随机 子 空 


i 


特征 提取 算法 LIFT_RSM 取得 了 较 好 的 分 类 效 


对 于 Emotions 和 Image 数据 集 ， 除 了 履 盖 率 和 排序 损失 ， 


I 
T 


Wh 


> 


R4E 


Ro 


除 履 盖 率 外 , LIFT RSM 算法 的 和 
LIFT RSM 


p! 


比 于 原始 LIFT 算 


值得 注意 的 是 ， 
经 过 分 析 ， 发 现 其 主要 原因 是 相关 数据 集 的 标签 密度 较 大 ， 同 
时 拥有 多 个 标签 的 实例 较 多 ， 使 得 各 个 实际 类 别 中 边缘 样本 及 
噪声 样本 增多 ， 


计 上 述 数据 集 用 


部 分 数据 集中 提出 算法 在 部 分 指标 上 表现 


EM 


致使 特征 提取 性 能 受到 影响 ， 导 致 分 类 效果 不 


以 Flags, Scene, Emotions 及 Image 数据 集 为 例 ， 分 别 统 


LIFT 和 LIFT RSM 算法 学 习 后 得 到 的 类 属 属 


E 


H 2f 


E 度 ， 具 体 对 比 情况 如 医 


名 


1~4 所 示 。 
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同 程度 低 于 LIFT 算法 的 类 属 属性 维度 。 其 中 ,以 Scene 数据 集 
为 例 , 在 其 包含 的 6 个 标签 上 , LIFT 算法 学 习 得 到 的 原始 类 属 
属性 维度 分 别 为 138、118、128、139、171、138, 而 使 用 LIFT_RSM 
算法 进行 学 习 后 对 应 属性 维度 分 别 下 降 至 110. 83. 96. 107. 
144、110， 由 此 可 见 由 LIFT RSM 算法 学 习 得 到 的 类 属 属性 维 
度 的 确 能 够 有 一 定 程度 的 降低 。 虽 然 LIFT_RSM 算法 在 部 分 评 
价 指标 上 略 低 于 对 比 算法 ， 但 总 体 而 言 ，LIFT_RSM 算法 仍然 
能 够 获得 较 好 的 学 习 分 类 性 能 。 
4 5 LIFT RSM 算法 通过 融合 各 个 随机 子 空间 中 样本 的 近邻 关 
系 ， 可 以 更 精确 的 表示 样本 间 的 相关 性 ， 因 而 可 以 有 效 解决 多 
标签 数据 分 类 问题 。 毕 上 所 述 ， 本 文 提出 的 LIFT RSM 算法 在 
综合 性 能 上 总 体 优 于 其 他 对 比 算 法 ， 提 高 了 分 类 器 的 性 能 ， 并 


I GS 取得 了 较 好 的 效果 。 
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不 同 与 以 往 多 标签 学 习 算法 , LIFT 算法 着 重 考察 属性 空间 
操作 对 多 标签 学 习性 能 的 影响 。 本 文 以 LIFT 算法 为 基础 ， 利 
用 随机 子 空间 模型 划分 原始 类 属 空间 ， 在 融合 各 个 子 空间 中 近 
邻 关 系 后 ， 借 助 成 对 约束 信息 指导 降 维 的 思想 ， 提 出 了 一 种 基 
于 随机 子 空间 的 多 标 答 类 属 特征 提取 算法 -系列 实验 结果 表 
明 ， 提 出 算法 整体 上 优 于 其 他 经 典 算法 ， 符 合 预期 目标 ， 验 证 
了 该 算法 的 有 效 性 。 在 今后 的 研究 中 ， 可 以 将 标签 间 的 相关 性 
融入 到 类 属 属性 特征 提取 中 ， 以 进一步 提升 多 标签 算法 的 学 习 
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SEL N 性 能 。 此 外 ， 目 前 该 算法 的 参数 个 数 相对 较 多 ， 寻 找 有 效 的 
E—urr RM N 
s y N g 适应 方法 减少 所 需 参数 数目 也 是 未 来 的 研究 工作 
N N N NE N 
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